#import "@preview/touying:0.6.1": *
#import themes.aqua: *

#show: aqua-theme.with(
  aspect-ratio: "16-9",
  config-info(
    title: [概率论],
    subtitle: [Subtitle],
    author: [数学主义],
    date: datetime.today(),
    institution: [Institution],
  ),
)
#set text(font: ("Calibri", "Microsoft YaHei"), weight: "regular", size: 25pt)

#title-slide()

#outline-slide()

= 回顾

== 随机变量独立

设 $\( X \, Y \)$ 是二维随机变量，若对任意实数
$a \, b \, c \, d$，都有：
$ P \( a < X < b \, med c < Y < d \) = P \( a < X < b \) dot.op P \( c < Y < d \) $
则称 $X$ 与 $Y$ #strong[相互独立]。

#strong[解释：]知道 $X$ 在某个范围内取值，不会改变你对 $Y$ 取值的预测。

== 判断独立性的三种方法
<判断独立性的三种方法>
+ 联合分布函数满足： $ F \( x \, y \) = F_X \( x \) F_Y \( y \) $

+ 离散型：联合分布列对任意 $i \, j$ 满足 $ p_(i j) = p_i p_j $

+ 连续型：联合密度函数满足 $ p \( x \, y \) = p_X \( x \) p_Y \( y \) $

只要能写成"联合 = 边际 × 边际"的形式，就独立！

---

== 期望
<期望>
---

若二维随机变量 $\( X \, Y \)$ 的分布由联合分布列
$P \( X = x_i \, Y = y_j \)$ 或联合密度函数 $p \( x \, y \)$ 给出，则
$Z = g \( X \, Y \)$ 的数学期望为：
$ E \( Z \) = cases(delim: "{", sum_i sum_j g \( x_i \, y_j \) P \( X = x_i \, Y = y_j \) \, & upright("离散情形") \,, integral_(- oo)^oo integral_(- oo)^oo g \( x \, y \) p \( x \, y \) thin d x thin d y \, & upright("连续情形") .) $

直观理解：把所有可能的结果 $g \( x_i \, y_j \)$
按照它们发生的可能性（概率）加权平均起来。
---
重要特例：

- 若 $g \( X \, Y \) = X$，则
  $ E \( X \) = integral_(- oo)^oo integral_(- oo)^oo x thin p \( x \, y \) thin d x thin d y = integral_(- oo)^oo x thin p_X \( x \) thin d x . $

---

*和的期望等于期望的和*：设 $\( X \, Y \)$ 是二维随机变量，且
$E \( X \)$、$E \( Y \)$ 存在，则有：
$ E \( X + Y \) = E \( X \) + E \( Y \) . $ 该结论 #strong[不要求] $X$
与 $Y$ 独立。


*独立随机变量乘积的期望等于期望的乘积*：若随机变量 $X$ 与 $Y$
相互独立，则有： $ E \( X Y \) = E \( X \) dot.op E \( Y \) . $

---

*独立随机变量和的方差等于方差的和*：若随机变量 $X$ 与 $Y$ 相互独立，则有：
$ upright(V a r) \( X plus.minus Y \) = upright(V a r) \( X \) + upright(V a r) \( Y \) . $

这个性质告诉我们：当你把两个独立的随机过程相加或相减时，它们的波动（不确定性）不会抵消，只会叠加。

#strong[关键点：]
方差是"误差的平方的期望"，所以即使正负误差可能抵消，但它们的"大小"仍然累加。

---

设 $\( X \, Y \)$ 是一个二维随机变量，若数学期望
$E \[ \( X - E \( X \) \) \( Y - E \( Y \) \) \]$ 存在，则称此期望为 $X$
与 $Y$ 的 #strong[协方差]，记作：
$ upright(C o v) \( X \, Y \) = E \[ \( X - E \( X \) \) \( Y - E \( Y \) \) \] . $

特别地，有： $ upright(C o v) \( X \, X \) = upright(V a r) \( X \) . $

协方差的直观含义：两个变量是否"同进同退，一荣俱荣，一损俱损"？它衡量的是：当
$X$ 偏离其平均值时，$Y$ 是否也倾向于以相同方向偏离其平均值。

---

- 协方差的计算公式：设 $\( X \, Y \)$ 是二维随机变量，则有：
$ upright(C o v) \( X \, Y \) = E \( X Y \) - E \( X \) E \( Y \) . $



- $ #box(stroke: black, inset: 3pt, [$ upright("独立") arrow.r.double upright("不相关") \, quad upright("但") quad upright("不相关") ⇏ upright("独立") . $]) $

- 协方差为零只表示"无线性关系"，不代表完全无关。



- #strong[$ #box(stroke: black, inset: 3pt, [$ upright("独立") arrow.r.double upright("不相关") arrow.r.double E \( X Y \) = E \( X \) E \( Y \) . $]) $]

---

任意随机变量和的方差：对任意二维随机变量 $\( X \, Y \)$，有：
$ upright(V a r) \( X plus.minus Y \) = upright(V a r) \( X \) + upright(V a r) \( Y \) plus.minus 2 upright(C o v) \( X \, Y \) . $

---

设 $X \, Y \, Z$ 为任意随机变量，$a \, b$ 为常数。则协方差具有以下性质：

+ #strong[对称性：]
  $upright(C o v) \( X \, Y \) = upright(C o v) \( Y \, X \)$；

+ #strong[与常数的协方差为零：] $upright(C o v) \( X \, a \) = 0$；

+ #strong[齐次性：]
  $upright(C o v) \( a X \, b Y \) = a b thin upright(C o v) \( X \, Y \)$；

+ #strong[对单变量的线性：]
  $upright(C o v) \( X + Y \, Z \) = upright(C o v) \( X \, Z \) + upright(C o v) \( Y \, Z \)$。

---

这说明：*协方差是一个"对称双线性型"*，类似于向量空间中的内积。

#strong[类比理解：]

- 在几何中，两个向量的点积 $arrow(a) dot.op arrow(b)$
  是一个数，表示它们的夹角和长度关系；

- 在概率中，协方差 $upright(C o v) \( X \, Y \)$
  是一种"随机变量之间的'点积'"，衡量它们的线性依赖程度。

虽然协方差不是严格意义上的内积（因为它可以为负），但它具有类似的代数性质。

---

设 $\( X \, Y \)$ 是一个二维随机变量，且
$upright(V a r) \( X \) = sigma_x^2 > 0$，$upright(V a r) \( Y \) = sigma_y^2 > 0$。则称：
$ upright(C o r r) \( X \, Y \) = frac(upright(C o v) \( X \, Y \), sqrt(upright(V a r) \( X \)) sqrt(upright(V a r) \( Y \))) = frac(upright(C o v) \( X \, Y \), sigma_x sigma_y) $
为 $X$ 与 $Y$ 的 #strong[（线性）相关系数]。

- 协方差就像两个向量的内积；

- 相关系数就像两个向量的夹角的余弦。

---

如何想象 $upright(C o r r) in \[ - 1 \, 1 \]$？

我们可以把相关系数看作两个向量之间的"夹角余弦"。

- $upright(C o r r) = 1$：完全正相关，像两个方向相同的向量；

- $upright(C o r r) = - 1$：完全负相关，像两个方向相反的向量；

- $upright(C o r r) = 0$：无线性关系，像两个方向垂直的向量。

---

定理：设 $X \, Y$ 是方差为正的随机变量，则：
$ upright(C o r r) \( X \, Y \) = plus.minus 1 quad upright("当且仅当") quad P \( Y = a X + b \) = 1 \, $
其中 $a eq.not 0$，且：

- 若 $upright(C o r r) \( X \, Y \) = 1$，则 $a > 0$；

- 若 $upright(C o r r) \( X \, Y \) = - 1$，则 $a < 0$。

---

= 大数定律
---


在我们日常生活中，经常需要通过「观察」来推测某个事物的真相。比如说你每天刷短视频，平台根据你点开的内容推荐更多类似视频。它怎么知道你喜欢什么？它是记录你看了很多视频表现出来的「平均行为」。

*当我们收集的数据越来越多时，某些随机现象会变得越来越稳定，甚至趋近于一个确定的规律。*

---

假设我们有一堆独立重复的试验，比如抛硬币、掷骰子、抽卡……每次试验的结果是一个随机变量
$X_1 \, X_2 \, dots.h \, X_n$，它们都来自同一个分布，具有相同的期望 $mu$
和方差 $sigma^2$。

定义： $ S_n = X_1 + X_2 + dots.h.c + X_n $ 这是前 $n$
次试验的#strong[总和]。

再定义： $ M_n = frac(X_1 + X_2 + dots.h.c + X_n, n) = S_n / n $ 这是前
$n$ 次试验的#strong[样本均值]。

我们可以计算：
$ E \[ M_n \] = mu \, quad upright(v a r) \( M_n \) = sigma^2 / n $

注意！方差是 $sigma^2 / n$，它随着 $n$ 增大而#strong[不断缩小]。

这意味着：当样本量很大时，$M_n$ 的取值几乎不会偏离 $mu$ 太远。

举个例子：如果你扔一枚公平硬币 10 次，得到正面的比例可能是 60%；但如果扔
10000 次，比例就会非常接近
50%。这就是我们直觉中的"长期来看，频率趋于概率"。


---

== 为什么我们要学极限理论？
<为什么我们要学极限理论>
+ #strong[理论解释]：它告诉我们，为什么"大量观测"的平均值能逼近真实期望。这不是凭空猜测，而是有数学依据的。

+ #strong[实用近似]：当 $n$ 很大时，精确计算 $S_n$ 或 $M_n$
  的分布非常困难（比如抛 100
  次硬币的所有可能结果），但我们可以用极限性质来近似处理。

+ #strong[统计推断的基础]：现代统计学中，几乎所有参数估计、假设检验都依赖于大样本下的极限行为。没有它，我们就无法从数据中得出可靠的结论。

本周我们将学习两种最重要的极限结果：

- #strong[大数定律]：说明样本均值如何依概率收敛到总体均值；

- #strong[中心极限定理]：说明标准化后的总和
  $Z_n = frac(S_n - n mu, sigma sqrt(n))$ 在 $n$
  很大时，其分布接近标准正态分布。

== 马尔可夫不等式
<马尔可夫不等式>
假设你在一所中学当老师，班上有 50 名学生参加一次考试，满分是 100
分。你知道全班的平均分是 60 分。

现在你问自己一个问题：#emph[有多少人可能考了 90 分以上？]

直觉上，如果平均分只有 60，那么考 90
的人不可能太多，否则平均分会拉上去。

马尔可夫不等式就是把这个直觉变成数学语言。

---

设随机变量 $X gt.eq 0$, 那么对任意 $a > 0$ 都有
$ P \( X gt.eq a \) lt.eq frac(E \[ X \], a) . $

这句话的意思是：
如果一个非负随机变量的期望很小，那么它取很大值的概率也就很小。
---
=== 证明
<证明>
思路：构造一个"简化版"的随机变量

我们想估计 $P \( X gt.eq a \)$，也就是 $X$ 超过某个值 $a$ 的概率。

定义一个新的随机变量
$ Y_a = cases(delim: "{", 0 \, & upright("如果 ") X < a, a \, & upright("如果 ") X gt.eq a) $

换句话说，$Y_a$ 就是一个「开关」：只要 $X$ 没超过 $a$，它就等于
0；一旦超过，它就跳到 $a$.

总有： $ Y_a lt.eq X $ 由数学期望的单调性可得：
$ E \[ Y_a \] lt.eq E \[ X \] $

另一方面，计算 $E \[ Y_a \]$：
$ E \[ Y_a \] = a dot.op P \( Y_a = a \) = a dot.op P \( X gt.eq a \) $

所以： $ a dot.op P \( X gt.eq a \) lt.eq E \[ X \] $ 两边除以
$a$，就得到： $ P \( X gt.eq a \) lt.eq frac(E \[ X \], a) $
---
=== 小结
<小结>
- 马尔可夫不等式告诉我们：#strong[期望小 → 极端大值出现的概率小]。
- 它适用于所有非负随机变量（比如次数、时间、金额、得分等）。
- 它给出的是一个#strong[上界]，通常比较松，但在理论推导中非常有用。
- 有人说"不抱希望就不会失望"，
  - 而马尔可夫不等式给了我们一个类似的结论：如果你的水平很低，那就别指望突然表现很好。
  - 极端好运需要足够高的"平均底气"来支撑。

== 切比雪夫不等式
<切比雪夫不等式>
#strong[如果一个随机变量的方差很小，那么它偏离均值的可能性就很低。]

这就像说："一个人平时很稳定，不会突然疯掉。" 
比如你的朋友每天早上都 7:00
起床，那你几乎不用担心他今天会迟到；但如果他作息混乱，可能今天 6
点起，明天 9 点起，那你就不敢确定他会准时。

在统计学中，这种"稳定性"就是由 #strong[方差] 来衡量的。

司马懿："#strike[诸葛亮的方差约等于零]亮平生谨慎，不曾弄险。今大开城门，必有埋伏。"

---

$ upright("设随机变量 ") X upright(" 的均值为 ") mu \, \ med upright("方差为 ") sigma^2 \, med \ upright("则对任意 ") c > 0 \, \ med P \( \| X - mu \| gt.eq c \) lt.eq sigma^2 / c^2 . $

这句话的意思是： 如果一个随机变量的方差 $sigma^2$ 很小，那么它离均值
$mu$ 太远的概率也一定很小。
---

假设你刷视频时，每次停留时间的平均是 30 秒，标准差是 5
秒。这意味着大部分时候你会看 25~35 秒左右的视频。

根据切比雪夫不等式，你停留时间超过 45 秒（即偏离均值 15
秒）的概率最多是： $ 5^2 / 15^2 = 25 / 225 = 1 / 9 approx 11.1 % $
所以，平台可以预期：绝大多数用户不会长时间停留在单个视频上，除非内容特别吸引人。

---

切比雪夫不等式其实是马尔可夫不等式的一个"升级版"。

证明思路：构造一个新的非负随机变量

考虑随机变量 $\( X - mu \)^2$。注意：

- 这个量总是非负的（平方嘛），所以可以使用马尔可夫不等式；

- 它的期望就是方差：$E \[ \( X - mu \)^2 \] = sigma^2$。

现在，我们想估计 $P \( \| X - mu \| gt.eq c \)$，也就是 $X$ 偏离均值超过
$c$ 的概率。

注意到：
$ \| X - mu \| gt.eq c quad arrow.l.r.double quad \( X - mu \)^2 gt.eq c^2 $
因为两边都是非负数，平方后不等号方向不变。

可知： $ P \( \| X - mu \| gt.eq c \) = P (\( X - mu \)^2 gt.eq c^2) $

现在对非负随机变量 $\( X - mu \)^2$ 应用 #strong[马尔可夫不等式]，令
$a = c^2$：
$ P (\( X - mu \)^2 gt.eq c^2) lt.eq frac(E \[ \( X - mu \)^2 \], c^2) = sigma^2 / c^2 $

因此： $ P \( \| X - mu \| gt.eq c \) lt.eq sigma^2 / c^2 $
---
直观理解：我们可以把 $\( X - mu \)^2$
看作"偏离程度的平方"。它越大，说明越"跑偏"。

马尔可夫不等式告诉我们：如果这个"跑偏"的期望（即方差）很小，那么它很大的概率也很小。

这就意味着：$X$ 不太可能离 $mu$ 太远。
---
=== 小结
<小结-1>
- 切比雪夫不等式适用于任何有有限方差的随机变量（不限于非负）；

- 它给出了偏离均值的概率上界；

- 它比马尔可夫不等式更强，因为它利用了方差信息；

- 它是证明 #strong[大数定律] 的关键工具。

---

== 弱大数定律
<弱大数定律>
#strong[弱大数定律]，也叫
#strong[辛钦大数定律]。

它告诉我们一个非常朴素但深刻的事实：

 #strong[如果你重复做同一个随机实验很多次，并计算平均值，那么这个平均值会越来越接近真实的期望值。]

这听起来像是常识，但它背后有严格的数学支撑。
---
=== 数学表述
<数学表述弱大数定律辛钦大数定律>
设 $X_1 \, X_2 \, dots.h$ 是一组独立同分布的随机变量，公共均值为
$mu$，方差为 $sigma^2$。定义样本均值： $ M_n = 1 / n sum_(i = 1)^n X_i $

那么，对任意 $epsilon > 0$，当 $n arrow.r oo$ 时必有
$P \( \| M_n - mu \| gt.eq epsilon \) arrow.r 0$.
---
换句话说：当样本量 $n$ 足够大时，$M_n$ 与 $mu$ 的差距超过任意小正数
$epsilon$ 的概率趋于 0。

也就是说：#strong[样本均值以很大的概率集中在真实均值附近]。

$M_n$ 是一个随机变量，它不会精确等于
$mu$。但我们可以说：#strong[它越来越不可能偏离 $mu$ 太远]。

---

#strong[证明：]

首先，我们知道：
$ E \[ M_n \] = mu \, quad upright(v a r) \( M_n \) = sigma^2 / n $
这是因为在独立性下，方差可以相加，再除以 $n^2$。

现在，对 $M_n$ 应用 #strong[切比雪夫不等式]：

$ P \( \| M_n - mu \| gt.eq epsilon \) lt.eq frac(upright(v a r) \( M_n \), epsilon^2) = frac(sigma^2 \/ n, epsilon^2) = frac(sigma^2, n epsilon^2) $

注意：右边是一个关于 $n$ 的表达式，随着 $n arrow.r oo$，它趋于 0。

所以： $ lim_(n arrow.r oo) P \( \| M_n - mu \| gt.eq epsilon \) = 0 $

---

直观理解：

- 方差 $sigma^2 / n$ 随着 $n$ 增大而减小；

- 所以 $M_n$ 的分布越来越"集中"在 $mu$ 附近；

- 即使单个观测值可能很离谱，但平均起来就趋于稳定。

就像你刷短视频：今天你可能看了 5 分钟就划走，明天看了 30
分钟，但长期来看，你每天的平均观看时间会趋于某个稳定值。

=== 小结
<小结-2>
- 弱大数定律说明：样本均值在大样本下以高概率逼近总体均值；

- 它是统计推断的基础（比如用样本均值估计总体均值）；

- "弱"：它依赖于独立同分布和有限期望；

- 它的证明核心是：方差趋于 0 $arrow.r.double$ 偏离概率趋于 0。

---

== 伯努利大数定律：频率趋近于概率
<伯努利大数定律频率趋近于概率>

#strong[当你重复做同一个随机试验很多次时，事件发生的频率会越来越接近它的理论概率。]

这就是我们日常生活中对"概率"的直观理解！
---

=== 一个熟悉的例子：抛硬币
<一个熟悉的例子抛硬币>
假设你有一枚公平的硬币，正面朝上的概率是 $p = 0.5$。

你连续抛 10 次，可能得到 7 次正面，频率是 70%； 再抛 100 次，可能得到 48
次正面，频率是 48%； 再抛 10000 次，你会发现正面的比例几乎总是接近 50%。

这个现象背后的数学原理，就是 #strong[伯努利大数定律]。

=== 数学表述：伯努利大数定律
<数学表述伯努利大数定律>
设在 $n$ 次独立重复的伯努利试验中，事件 $A$ 发生的次数为
$S_n$，每次试验中 $A$ 发生的概率为 $p$。

定义频率： $M_n = S_n / n$

那么：

#block[
$ #box(stroke: black, inset: 3pt, [$ lim_(n arrow.r oo) P (lr(|S_n / n - p|) < epsilon) = 1 quad upright("对任意 ") epsilon > 0 . $]) $

]
换句话说：当试验次数 $n$ 足够大时，事件 $A$ 的频率 $S_n / n$ 以概率 1
落在 $p$ 的 $epsilon$ 邻域内。

也就是说：#strong[频率以极高的概率逼近概率 $p$.]

---

#strong[证明：]

如果第 $i$ 次试验中事件 $A$ 发生，则记 $X_i = 1$，否则 $X_i = 0$. 那么：
$ S_n = X_1 + X_2 + dots.h.c + X_n \, quad M_n = S_n / n $

$X_i$ 是独立同分布的伯努利随机变量，期望为 $E \[ X_i \] = p$，方差为
$upright(v a r) \( X_i \) = p \( 1 - p \)$.

于是，$M_n$ 就是这些随机变量的样本均值。

根据我们之前学过的 #strong[弱大数定律]，有：
$ P \( \| M_n - p \| \) gt.eq epsilon arrow.r 0 quad upright("当 ") n arrow.r oo $

也就是： $ P (lr(|S_n / n - p|) < epsilon) arrow.r 1 $
---
=== 小结
<小结-3>
- 伯努利大数定律说明：频率 $arrow.r$ 概率；

- 它是弱大数定律在伯努利试验中的特例；

- 它给出了"概率"的操作性定义：概率就是长期频率的极限；

- 它是统计推断的基石之一。

== 依概率收敛
<依概率收敛>
我们已经学习了弱大数定律和伯努利大数定律，它们都告诉我们一个共同的事实：

#strong[当样本量很大时，样本均值或频率会越来越接近真实值。]

这种"接近"到底是什么意思？
我们需要一个新的数学语言来描述这种"越来越接近"的现象，这就是
#strong[依概率收敛]。
---
=== 正式定义
<正式定义>
设 ${ X_n }$ 是一列随机变量，而 $X$ 是一个随机变量。如果对任意
$epsilon > 0$，当 $n arrow.r oo$ 时必有
$ P \( \| X_n - X \| gt.eq epsilon \) arrow.r 0 \, $ 我们就说序列
${ X_n }$ #strong[依概率收敛于] $X$，记为 $ X_n arrow.r^P X $

换句话说：随着 $n$ 增大，$X_n$ 与 $X$ 的差距超过任意小正数 $epsilon$
的概率趋于 0。

或者等价地说： $ P \( \| X_n - X \| < epsilon \) arrow.r 1 $ 即：$X_n$
以越来越高的概率落在 $X$ 的 $epsilon$ 邻域内。
---
特别地： 如果 $X$ 是一个常数 $c$（即退化分布），那么我们就说 $X_n$
依概率收敛于常数 $c$，记作： $ X_n arrow.r^P c $
---
=== 依概率收敛 vs. 函数极限
<依概率收敛-vs.-函数极限>
注意：这和我们学过的函数极限不一样！

- 逐点收敛：$f \( n \) arrow.r L$ 表示 $f \( n \)$ 在哪里看都趋近于
  $L$；

- 依概率收敛：$X_n arrow.r^P X$ 表示 $X_n$ 以高概率接近
  $X$，但不保证到处都接近。
---
=== 用依概率收敛重述大数定律
<用依概率收敛重述大数定律>


#strong[\1. 弱大数定律（辛钦大数定律）]

设 $X_1 \, X_2 \, dots.h$ 是独立同分布的随机变量，均值为
$mu$，方差有限。

定义样本均值： $M_n = 1 / n sum_(i = 1)^n X_i $

则： $ M_n arrow.r^P mu $

也就是说：样本均值依概率收敛于总体均值。

#strong[\2. 伯努利大数定律]

设 $X_i$
为伯努利试验，$P \( X_i = 1 \) = p$，$P \( X_i = 0 \) = 1 - p$。

令 $M_n = 1 / n sum_(i = 1)^n X_i$ 为事件发生的频率。

则： $ M_n arrow.r^P p $

也就是说：频率依概率收敛于概率。

=== 小结
<小结-4>
- 依概率收敛是随机变量序列的一种收敛方式；

- 它表示：偏离目标值的概率趋于 0；

- 它是大数定律的自然语言：

  - 样本均值依概率收敛于总体均值；

  - 频率依概率收敛于概率。

== 依概率收敛 ≠ 期望收敛
<依概率收敛-期望收敛>
根据"依概率收敛"的定义：如果 $X_n arrow.r^P 0$，那么随着 $n$
增大，$X_n$ 越来越不可能偏离 0 太远。

#strong[这是否意味着它的期望也趋于 0？]

答案是：#strong[不一定！]

---
考虑一个离散随机变量序列 $Y_n$，其分布为：

$ P \( Y_n = y \) = cases(delim: "{", 1 - 1 / n \, & upright("若 ") y = 0 \,, 1 / n \, & upright("若 ") y = n^2 \,, 0 \, & upright("其他") .) $

也就是说：

- 有 $1 - 1 / n$ 的概率，$Y_n = 0$；

- 有 $1 / n$ 的概率，$Y_n = n^2$（非常大的数）。

#strong[它是否依概率收敛于 0？]

我们来检查定义：对任意 $epsilon > 0$，看
$P \( \| Y_n \| gt.eq epsilon \)$ 是否趋于 0。

注意：$\| Y_n \| gt.eq epsilon$ 只可能发生在 $Y_n = n^2$ 的时候，因为
$Y_n = 0$ 时绝对值是 0.

所以： $ P \( \| Y_n \| gt.eq epsilon \) = P \( Y_n = n^2 \) = 1 / n $

当 $n arrow.r oo$ 时，$1 / n arrow.r 0$，所以：
$ lim_(n arrow.r oo) P \( \| Y_n \| gt.eq epsilon \) = 0 $

因此，根据依概率收敛的定义： $ Y_n arrow.r^P 0 $

也就是说：#strong[随着 $n$ 增大，$Y_n$ 几乎总是等于 0]。
---
#strong[但它的期望呢？]

计算期望： $ E \[ Y_n \] = 0 dot.op (1 - 1 / n) + n^2 dot.op 1 / n = n $

所以： $ lim_(n arrow.r oo) E \[ Y_n \] = oo $

也就是说：虽然 $Y_n$ 绝大多数时候是 0，但它的#strong[期望却趋于无穷大]！

#strong[直观理解：为什么会这样？]

我们可以把 $Y_n$ 看作某种"风险投资"： 大概率亏钱（得 0）；
小概率暴富（得 $n^2$）。

虽然每次"暴富"的概率很小，但一旦发生，收益巨大。而且随着 $n$
增大，收益越来越大，即使概率变小，期望仍然爆炸。
---
#strong[依概率收敛关注的是"事件发生的可能性"，而不是"事件发生后的数值大小"。]

- "依概率收敛于 0" → 意味着"偏离 0 的可能性越来越小"；

- "期望趋于无穷" → 意味着"偶尔的巨大值拉高了平均"。

想象在抖音上发布的视频： 99% 的视频播放量只有几百； 1%
的视频突然爆火，播放量达到 100 万。

那么： 发布的视频"几乎总是播放量很低" → 类似 $Y_n arrow.r^P 0$；
但"平均播放量"却很高，因为那 1% 的爆款拉高了整体 → 类似
$E \[ Y_n \] arrow.r oo$。

=== 小结

- 一个随机变量序列可以依概率收敛于 0，但期望趋于无穷；

- 依概率收敛只关心"偏离的可能性"，不关心"极端值的大小"；

- 这个例子提醒我们：统计推断中要警惕异常值的影响；

- 它也说明了"收敛"有很多种方式，必须明确是哪种。

---

== 依概率收敛的四则运算法则
<依概率收敛的四则运算法则>
设 ${ X_n }$、${ Y_n }$ 是两个随机变量序列，$a$、$b$ 是常数。如果：
$ X_n arrow.r^P a \, quad Y_n arrow.r^P b \, $ 那么：

+ $X_n plus.minus Y_n arrow.r^P a plus.minus b$； \
  （和差也依概率收敛于和差）

+ $X_n times Y_n arrow.r^P a times b$； \
  （积也依概率收敛于积）

+ $X_n div Y_n arrow.r^P a div b$，其中 $b eq.not 0$。 \
  （商也依概率收敛于商）

直观理解： 你可以把依概率收敛看作一种"近似相等"。比如：
$X_n approx a$（以高概率）， $Y_n approx b$（以高概率），

那么自然就有： $X_n + Y_n approx a + b$，
$X_n dot.op Y_n approx a dot.op b$， $X_n \/ Y_n approx a \/ b$。

---

== 定义 4.3.1：服从大数定律
<定义-4.3.1服从大数定律>
设 ${ X_n }$ 是一个随机变量序列。如果对任意 $epsilon > 0$，有：
$ lim_(n arrow.r oo) P (lr(|1 / n sum_(i = 1)^n X_i - 1 / n sum_(i = 1)^n E \[ X_i \]|) < epsilon) = 1 \, $
则称该随机变量序列 ${ X_n }$ #strong[服从大数定律]。

换句话说： 样本均值与期望均值之间的差距，以概率 1 趋于 0。

也就是说：#strong[随着 $n$ 增大，样本平均值越来越接近期望平均值。]

== 马尔可夫大数定律
<马尔可夫大数定律>
考虑随机变量序列 ${ X_n }$，定义前 $n$ 项的和：
$ S_n = sum_(i = 1)^n X_i $

那么样本均值为： $ macron(X)_n = 1 / n S_n $

这里的关键是：#strong[如果 $upright(V a r) \( S_n \)$ 增长得不够快，那么
$macron(X)_n$ 就会稳定下来]。

具体来说，我们引入以下条件：
$ 1 / n^2 upright(V a r) (sum_(i = 1)^n X_i) arrow.r 0 . $

这个条件被称为 #strong[马尔可夫条件]（Markov's condition）。

直观理解：

- $upright(V a r) \( S_n \)$ 是总和的波动程度；

- 除以 $n^2$ 后，相当于看"平均波动"的大小；

- 如果这个量趋于 0，说明平均波动越来越小；

- 所以它会越来越集中在期望附近。

---
=== 表述
设 ${ X_n }$ 是一个随机变量序列。如果满足：
$ lim_(n arrow.r oo) 1 / n^2 upright(V a r) (sum_(i = 1)^n X_i) = 0 \, $
则该序列服从大数定律，即对任意 $epsilon > 0$，
$ lim_(n arrow.r oo) P (lr(|1 / n sum_(i = 1)^n X_i - 1 / n sum_(i = 1)^n E \[ X_i \]|) < epsilon) = 1 . $

只要样本总和的方差增长速度慢于
$n^2$，样本均值就足以估计期望均值。
---
=== 证明
<证明利用切比雪夫不等式>
#strong[第1步：定义偏差]

令
$ M_n = 1 / n sum_(i = 1)^n X_i \, quad mu_n = 1 / n sum_(i = 1)^n E \[ X_i \] $

我们想估计： $ P \( \| M_n - mu_n \| gt.eq epsilon \) $

#strong[第2步：应用切比雪夫不等式]


#strong[切比雪夫不等式：] 设随机变量 $Y$ 的期望 $E \[ Y \] = mu_Y$
和方差 $upright(V a r) \( Y \) = sigma_Y^2$ 都存在且有限。那么对任意
$epsilon > 0$，有：
$ P #scale(x: 120%, y: 120%)[\(] \| Y - mu_Y \| gt.eq epsilon #scale(x: 120%, y: 120%)[\)] lt.eq sigma_Y^2 / epsilon^2 . $



现在回到我们的证明。我们想估计：
$ P #scale(x: 120%, y: 120%)[\(] \| M_n - mu_n \| gt.eq epsilon #scale(x: 120%, y: 120%)[\)] \, $
其中：
$ M_n = 1 / n sum_(i = 1)^n X_i \, quad mu_n = E \[ M_n \] = 1 / n sum_(i = 1)^n E \[ X_i \] . $

注意：$M_n$ 是一个随机变量。为了能用切比雪夫不等式，我们需要确认两点：

+ $E \[ M_n \]$ 存在且有限；

+ $upright(V a r) \( M_n \)$ 存在且有限。

根据题设，我们考虑的是满足马尔可夫条件的情形，即：
$ 1 / n^2 upright(V a r) (sum_(i = 1)^n X_i) arrow.r 0 . $
这意味着对于每个固定的 $n$，$upright(V a r) (sum_(i = 1)^n X_i)$
必须是一个*有限的实数*（否则极限无意义）。因此：

- $upright(V a r) \( M_n \) = 1 / n^2 upright(V a r) (sum_(i = 1)^n X_i)$
  是有限的；

- 同时，只要每个 $E \[ X_i \]$
  存在（这是讨论大数定律的基本前提），$mu_n$ 就存在。

所以，*切比雪夫不等式的前提条件完全满足*，我们可以放心地对 $M_n$
使用它。

于是，令 $Y = M_n$，则 $mu_Y = mu_n$，代入切比雪夫不等式得：
$ P #scale(x: 120%, y: 120%)[\(] \| M_n - mu_n \| gt.eq epsilon #scale(x: 120%, y: 120%)[\)] lt.eq frac(upright(V a r) \( M_n \), epsilon^2) = 1 / epsilon^2 dot.op 1 / n^2 upright(V a r) (sum_(i = 1)^n X_i) . $



#strong[第3步：取极限]

按照"服从大数定律"的定义，$epsilon$是任意#strong[给定的常数]，所以由马尔可夫条件，右边趋于
0：
$ lim_(n arrow.r oo) 1 / epsilon^2 dot.op 1 / n^2 upright(V a r) (sum_(i = 1)^n X_i) = 0 $

因此： $ lim_(n arrow.r oo) P \( \| M_n - mu_n \| gt.eq epsilon \) = 0 $

即： $ lim_(n arrow.r oo) P \( \| M_n - mu_n \| < epsilon \) = 1 $
---
=== 小结
<小结-6>
- 马尔可夫条件不要求独立性或同分布，只关注方差的增长速度；

- 它告诉我们：只要"波动不爆炸"，平均值就会稳定。

== 蒙特卡罗方法：用随机抽样算积分
<蒙特卡罗方法用随机抽样算积分>
假设你想算： $ J = integral_0^1 f \( x \) thin d x $ 但 $f \( x \)$
很复杂，没有初等原函数，怎么办？

我们可以用一种神奇的方法——#strong[蒙特卡罗方法]，它基于大数定律。

---

设随机变量 $X$ 服从 $\( 0 \, 1 \)$ 上的均匀分布，即
$X tilde.op U \( 0 \, 1 \)$。

定义一个新的随机变量： $ Y = f \( X \) $

那么 $Y$ 的期望是多少？根据期望的定义：
$ E \[ Y \] = E \[ f \( X \) \] = integral_0^1 f \( x \) thin d x = J $

所以，#strong[计算积分 $J$ 就等于计算 $f \( X \)$ 的期望值]！

关键点：我们不直接求期望，而是用大数定律来估计它。

由辛钦大数定律，我们知道：如果生成 $n$ 个独立同分布的随机数
$x_1 \, x_2 \, dots.h \, x_n tilde.op U \( 0 \, 1 \)$，然后计算：
$ macron(f)_n = 1 / n sum_(i = 1)^n f \( x_i \) \, $ 那么：
$ macron(f)_n arrow.r^P E \[ f \( X \) \] = J $

也就是说：#strong[随着 $n$
增大，这个平均值会以很高的概率接近真实积分值]。

因此，我们可以用：
$ #box(stroke: black, inset: 3pt, [$ J approx 1 / n sum_(i = 1)^n f \( x_i \) $]) $
作为积分的估计值。

---

#strong[为什么有效？------大数定律在起作用]

- 每次 $f \( x_i \)$ 是一次"观测"；

- 所有观测都是独立同分布的；

- 样本均值依概率收敛于期望；

- 所以估计值越来越准。
---
=== 小结
<小结-7>
- 蒙特卡罗方法用随机抽样代替精确计算；

- 它的核心是用样本均值估计期望；

- 它的理论基础是大数定律；

- 它适用于无法解析求解的问题。

